vllm serve checkpoints/Qwen2.5-VL-7B-Instruct \
    --dtype auto --max-model-len 4096 \
    --api-key token-abc123 \
    --gpu_memory_utilization 0.9 \
    --trust-remote-code \
    --port 8000 \
    --served-model-name 'Qwen2.5-VL-7B-Instruct' \
    --limit-mm-per-prompt '{"video": 3}'